关于 监督微调 SFT 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-10-24 15:35 | 
                                        
                                            Karpathy发布 SpellingBee 教程:用 SFT 与 RL 为 nanochat d32 增强字母计数能力,或引发 AI 代币关注
                                        
                                         据 @karpathy 介绍,他发布了完整教程,通过合成任务 SpellingBee 生成用户与助手示例,对 nanochat d32 进行中期训练与监督微调,并可选用强化学习提升鲁棒性,从而学会统计单词中某字母的次数,例如 strawberry 中的 r,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。方法要点包括:多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤(标准化引号、拼写拆分、显式计数迭代),并同时鼓励手动推理与 Python 工具两条解题路径,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。Karpathy 指出,由于 nanochat d32 体量小,需要在数据集中过采样该能力以促成学习,并可通过模拟错误样例或强化学习进一步增强稳定性,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。对交易者而言,开源小模型训练方法的进展曾与 AI 概念关注度提升相伴,AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现,Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨,来源:Kaiko Research 2024 周报;英伟达 2024 年财报资料。本文并非代币或产品发布,而是面向小模型能力注入的技术指南与数据示例,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。 | 
| 2025-10-06 21:27 | 
                                        
                                            DeepLearning.AI 推出 LLM 后训练课程:SFT、DPO、在线强化学习三大核心方法助力模型定制
                                        
                                         据 DeepLearning.AI 称,其 Post-training of LLMs 课程教授如何使用监督微调(SFT)、偏好直接优化(DPO)和在线强化学习(RL)来定制预训练大模型(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。据 DeepLearning.AI 称,课程讲解何时采用各方法、如何整理训练数据,并在代码层面实现以有效塑造模型行为(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。据 DeepLearning.AI 称,可通过链接 hubs.la/Q03MrTZS0 报名(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。 |